社会存在,与真实的人在一起的感觉,将推动由数字人类在虚拟现实(VR)中驱动的下一代通信系统。最佳的3D视频VR化身最小化不可思议的效果取决于特定于人的模型。但是,这些PS模型既耗时又耗时,并且通常受到数据可变性有限的训练,从而导致概括和稳健性差。影响面部表达转移算法准确性的主要变异性包括使用不同的VR耳机(例如,摄像头配置,耳机的斜率),面部外观随时间变化(例如,胡须,化妆)和环境因素(例如, ,照明,背景)。这是VR中这些模型可扩展性的主要缺点。本文通过提出了通过专门的增强策略培训的端到端多个认同体系结构(MIA)来克服这些局限性的进展。 MIA使用最小的个性化信息(即中性的3D网格形状),从VR耳机中的三个相机(两只眼睛,一只嘴)从三个相机(两只眼睛,一只嘴)驱动了头像的形状。同样,如果可用PS纹理解码器,MIA能够在具有挑战性的情况下驱动完整的Avatar(Shape+Texture)强劲的PS模型。我们对改善鲁棒性和概括的关键贡献是,我们的方法以无监督的方式隐含地将面部表达与滋扰因素(例如耳机,环境,面部外观)脱离。我们在各种实验中证明了所提出的方法与最先进的PS方法的卓越性能和鲁棒性。
translated by 谷歌翻译